home *** CD-ROM | disk | FTP | other *** search
/ IRIX Base Documentation 2002 November / SGI IRIX Base Documentation 2002 November.iso / usr / share / catman / p_man / cat5 / availmon.z / availmon
Encoding:
Text File  |  2002-10-03  |  9.4 KB  |  199 lines

  1.  
  2.  
  3.  
  4. aaaavvvvaaaaiiiillllmmmmoooonnnn((((5555))))                                                        aaaavvvvaaaaiiiillllmmmmoooonnnn((((5555))))
  5.  
  6.  
  7.  
  8. NNNNAAAAMMMMEEEE
  9.      availmon - overview of system availability monitoring facilities
  10.  
  11. DDDDEEEESSSSCCCCRRRRIIIIPPPPTTTTIIIIOOOONNNN
  12.      The availability monitor (_a_v_a_i_l_m_o_n) is a set of programs that are
  13.      integrated with SGI Embedded Support Partner (a.k.a ESP; see _e_s_p(5) for
  14.      more details) to collectively monitor and report the availability of a
  15.      system and the diagnosis of system crashes.  For unexpected reboots,
  16.      availmon identifies the cause of the reboot by gathering information from
  17.      diagnostic programs such as _i_c_r_a_s_h(1M), which includes results from the
  18.      FRU analyzer when available, and syslog (see _s_y_s_l_o_g(3C)), and system
  19.      configuration information from _c_o_n_f_i_g_m_o_n(1M), _v_e_r_s_i_o_n_s(1M), _h_i_n_v(1M) and
  20.      _g_f_x_i_n_f_o(1G).
  21.  
  22.      Availmon can send availability and diagnostic information to various
  23.      locations, depending on configuration; it can provide local system
  24.      availability statistics and reboot history reporting.
  25.  
  26.      All availmon capabilities are configurable from SGI ESP User Interface.
  27.      Availmon, by default will not automatically send availmon reports on
  28.      reboot.  In all cases, the AAAAuuuuttttoooommmmaaaattttiiiicccc eeee----mmmmaaaaiiiillll ddddiiiissssttttrrrriiiibbbbuuuuttttiiiioooonnnn flag must be
  29.      enabled for availmon to send reports.
  30.  
  31.      Availmon reporting centers around events.  Any system reboot is an
  32.      availmon event, whether a controlled shutdown or an "unscheduled" reboot,
  33.      such as a power interruption or a "crash".  An event record contains the
  34.      time at which the system was previously booted, which starts the event
  35.      period, the time the event occurred, which ends the period of "uptime",
  36.      the reason for the event, and the time that the system was rebooted.  If
  37.      the system stopped as a result of a hang, the exact instant at which it
  38.      stopped is not easily known; this time is obtained from SGI ESP Event
  39.      Monitor (see _e_v_e_n_t_m_o_n_d(1M) for more details) if aaaammmmccccoooonnnnffffiiiigggg ttttiiiicccckkkkeeeerrrrdddd flag is
  40.      configured.
  41.  
  42.      Events are grouped as either "Service Action" events, or "Unscheduled"
  43.      events.  Service Action events are controlled shutdowns, initiated by
  44.      operators through _s_h_u_t_d_o_w_n(1M), _h_a_l_t(1M) and _i_n_i_t(1M)).  For such
  45.      controlled shutdowns, a (configurable) prompt is given to identify the
  46.      reason for the shutdown.  Unscheduled events include system panics, and
  47.      system interrupts (power failures, power cycles, system resets etc.).
  48.      Panics are identified as either due to hardware or due to software or due
  49.      to unknown reasons.  This distinction is based strictly on results of the
  50.      FRU analyzer, if present.
  51.  
  52.      Availmon generates three types of reports: availability, diagnosis and
  53.      pager.  Availability reports consist of the system serial number, full
  54.      hostname/internet address, the previous system start time, the time of
  55.      the event, the reason for the event (the event code), uptime, start time
  56.      (following the reboot), and a summary of the reason for the event where
  57.      relevant.
  58.  
  59.  
  60.  
  61.  
  62.  
  63.                                                                         PPPPaaaaggggeeee 1111
  64.  
  65.  
  66.  
  67.  
  68.  
  69.  
  70. aaaavvvvaaaaiiiillllmmmmoooonnnn((((5555))))                                                        aaaavvvvaaaaiiiillllmmmmoooonnnn((((5555))))
  71.  
  72.  
  73.  
  74.      Diagnosis reports include all data from an availability report, and
  75.      additionally may contain the icrash analysis report, FRU analyzer result,
  76.      important syslog messages, and system hardware/software configuration and
  77.      version information.  Important syslog messages include error messages
  78.      and all messages logged by sysctlrd and syslogd, since the last reboot.
  79.      Duplicated messages are eliminated even if not consecutive; the first
  80.      such message is retained with its time stamp, and the number of
  81.      duplicated messages and the last time stamp are appended.  System
  82.      software version information is limited to version output for the
  83.      operating system and installed patches.
  84.  
  85.      Pager reports are intended for "chatty pagers", and include only the
  86.      system hostname, a brief description of the reason for the event, and the
  87.      summary, if present.
  88.  
  89.      Availability information for the local system is always permanently
  90.      stored in SGI ESP database with the help of _e_s_p_l_o_g_g_e_r(1).  Files in
  91.      /var/adm/avail are maintained by availmon and should not be deleted,
  92.      modified, or moved.
  93.  
  94. CCCCOOOONNNNFFFFIIIIGGGGUUUURRRRAAAATTTTIIIIOOOONNNN
  95.      Once availmon is installed, "registration" is required before availmon
  96.      reports are automatically distributed, and if desired, other options may
  97.      also be configured.  Registration of a system can normally be
  98.      accomplished simply by enabling the flag aaaauuuuttttooooeeeemmmmaaaaiiiillll using aaaammmmccccoooonnnnffffiiiigggg
  99.      aaaauuuuttttooooeeeemmmmaaaaiiiillll oooonnnn.  There's no default email distribution.
  100.  
  101.      There are several other configuration options that can prove useful.  One
  102.      is to configure sending availmon reports from one or more systems to a
  103.      standard system administrator email alias.  This provides real-time
  104.      notification of system activity.  Another similar option is to configure
  105.      availmon pager reports for real-time notification to "chatty" pagers.
  106.      Or, availmon diagnostic reports may be sent to a local support office, or
  107.      to a system administrator for detailed evaluation. To perform those
  108.      adjustmentd of Email distribution, just use aaaammmmccccoooonnnnffffiiiigggg aaaauuuuttttooooeeeemmmmaaaaiiiillll....lllliiiisssstttt.
  109.  
  110.      Availmon can also generate periodic status reports that indicate that a
  111.      system is still running and "registered" to send email reports.  This is
  112.      controlled by the NNNNuuuummmmbbbbeeeerrrr ooooffff ddddaaaayyyyssss bbbbeeeettttwwwweeeeeeeennnn ssssttttaaaattttuuuussss uuuuppppddddaaaatttteeeessss configuration
  113.      value, which defaults to 7777 days.  Such reports are sent by the eventmond,
  114.      so they are sent only if the aaaammmmccccoooonnnnffffiiiigggg ttttiiiicccckkkkeeeerrrrdddd configuration flag is oooonnnn.
  115.      NNNNOOOOTTTTEEEE::::That option is now deprecated in favor of an eventmond command-line
  116.      flag -_n.
  117.  
  118.      Even where sending of availmon reports is not enabled, local system
  119.      availability data is always maintained, and _R_e_p_o_r_t_s->_A_v_a_i_l_a_b_i_l_i_t_y option
  120.      can be chosen from SGI ESP User Interface to produce statistical or event
  121.      detail reports for the local system.
  122.  
  123.  
  124.  
  125.  
  126.  
  127.  
  128.  
  129.                                                                         PPPPaaaaggggeeee 2222
  130.  
  131.  
  132.  
  133.  
  134.  
  135.  
  136. aaaavvvvaaaaiiiillllmmmmoooonnnn((((5555))))                                                        aaaavvvvaaaaiiiillllmmmmoooonnnn((((5555))))
  137.  
  138.  
  139.  
  140. REPORT VIEWING
  141.      The _R_e_p_o_r_t_s->_A_v_a_i_l_a_b_i_l_i_t_y option of User Interface reviews saved
  142.      availability report information and provides statistical and event
  143.      history reports.  Also, eeeesssspppprrrreeeeppppoooorrrrtttt aaaavvvvaaaaiiiillllaaaabbbbiiiilllliiiittttyyyy command ASCII interface
  144.      can be used. By default, it processes the availability data on the local
  145.      system.  It can also process aggregate site data; that is, an
  146.      accumulation of availmon data from different systems.  Please refer to
  147.      SGI ESP User Guide on how to setup your system to collect availability
  148.      data from different systems.
  149.  
  150. FFFFIIIILLLLEEEESSSS
  151.      /var/adm/avail/.save/lasttick
  152.           uptime in seconds since Jan 1, 1970 (written by eventmond)
  153.      /var/adm/crash/*
  154.           location temporary availmon files:  availreport.*, diagreport.*,
  155.           pagerreport.*,
  156.      /etc/init.d/availmon
  157.           _i_n_i_t script that logs start/stop and initiates notification
  158.  
  159. SSSSEEEEEEEE AAAALLLLSSSSOOOO
  160.      espreport(1), esplogger(1), Mail(1), amconfig(1M), amreceive(1M),
  161.      amsyslog(1M), amtime1970(1M), configmon(1M), eventmond(1M), halt(1M),
  162.      hinv(1M), icrash(1M), init(1M), shutdown(1M), versions(1M), syslogd(1M),
  163.      syslog(3C), esp(5).
  164.  
  165. RRRREEEEFFFFEEEERRRREEEENNNNCCCCEEEESSSS
  166.      SGI Embedded Support Partner User Guide.
  167.  
  168.  
  169.  
  170.  
  171.  
  172.  
  173.  
  174.  
  175.  
  176.  
  177.  
  178.  
  179.  
  180.  
  181.  
  182.  
  183.  
  184.  
  185.  
  186.  
  187.  
  188.  
  189.  
  190.  
  191.  
  192.  
  193.  
  194.  
  195.                                                                         PPPPaaaaggggeeee 3333
  196.  
  197.  
  198.  
  199.